智能论文笔记

Time-lapse image classification using a diffractive neural network

Md Sadman Sakib Rahman , Aydogan Ozcan

分类：计算机视觉 | 神经与进化计算

2022-08-23

衍射深神经网络（D2NNS）定义了一个由空间工程的被动表面组成的全光计算框架，该框架通过调节传播光的幅度和/或相位来共同处理光学输入信息。衍射光学网络通过薄衍射量以光的速度来完成其计算任务，而无需任何外部计算能力，同时利用了光学的巨大并行性。证明了衍射网络以实现对象的全光分类并执行通用线性变换。在这里，我们首次证明了使用衍射网络的“延时”图像分类方案，通过使用输入对象的横向运动和/或衍射网络，可以显着提高其在复杂输入对象上的分类准确性和概括性性能。，相对于彼此。在不同的上下文中，通常将对象和/或相机的相对运动用于图像超分辨率应用程序；受其成功的启发，我们设计了一个延时衍射网络，以受益于由受控或随机横向移动创建的互补信息内容。我们从数值探索了延时衍射网络的设计空间和性能限制，从CIFAR-10数据集的对象进行光学分类中揭示了62.03％的盲测精度。这构成了迄今使用CIFAR-10数据集上的单个衍射网络达到的最高推理精度。延时衍射网络将对使用全光处理器的输入信号的时空分析广泛有用。

translated by 谷歌翻译

Can Ensemble of Classifiers Provide Better Recognition Results in Packaging Activity?

A. H. M. Nazmus Sakib , Promit Basak , Syed Doha Uddin , Shahamat Mustavi Tasin , Md Atiqur Rahman Ahad

分类：计算机视觉 | 机器学习

2022-11-05

Skeleton-based Motion Capture (MoCap) systems have been widely used in the game and film industry for mimicking complex human actions for a long time. MoCap data has also proved its effectiveness in human activity recognition tasks. However, it is a quite challenging task for smaller datasets. The lack of such data for industrial activities further adds to the difficulties. In this work, we have proposed an ensemble-based machine learning methodology that is targeted to work better on MoCap datasets. The experiments have been performed on the MoCap data given in the Bento Packaging Activity Recognition Challenge 2021. Bento is a Japanese word that resembles lunch-box. Upon processing the raw MoCap data at first, we have achieved an astonishing accuracy of 98% on 10-fold Cross-Validation and 82% on Leave-One-Out-Cross-Validation by using the proposed ensemble model.

translated by 谷歌翻译

Approximate Task Tree Retrieval in a Knowledge Network for Robotic Cooking

Md. Sadman Sakib , David Paulius , Yu Sun

分类：机器人

2022-07-08

灵活的任务计划继续对机器人构成艰巨的挑战，在这种机器人中，机器人无法创造性地将其任务计划改编成新的或看不见的问题，这主要是由于它对其行动和世界的知识有限。通过人类适应能力的激励，我们探索了如何从知识图（称为功能对象的网络（FOON））中获得的任务计划，可以用于针对需要在其知识库中不容易获得机器人可用概念的新型问题的新问题。来自140种烹饪食谱的知识是在FOON知识图中构造的，该图用于获取称为任务树的任务计划序列。可以修改任务树以以Foon知识图格式复制配方，这对于通过依靠语义相似性来丰富FOON的新食谱很有用。我们演示了任务树生成的力量，可以在食谱中从食谱中看到的1M+数据集中的食谱中看到，从未见过的成分和状态组合创建任务树的功能，我们根据它们的精确描述了新添加的成分的方式来评估树的质量。我们的实验结果表明，我们的系统能够提供76％正确性的任务序列。

translated by 谷歌翻译

BIO-CXRNET: A Robust Multimodal Stacking Machine Learning Technique for Mortality Risk Prediction of COVID-19 Patients using Chest X-Ray Images and Clinical Data

Tawsifur Rahman , Muhammad E. H. Chowdhury , Amith Khandakar , Zaid Bin Mahbub , Md Sakib Abrar Hossain , Abraham Alhatou , Eynas Abdalla , Sreekumar Muthiyal , Khandaker Farzana Islam , Saad Bin Abul Kashem

分类：计算机视觉 | 机器学习

2022-06-15

快速准确地检测该疾病可以大大帮助减少任何国家医疗机构对任何大流行期间死亡率降低死亡率的压力。这项工作的目的是使用新型的机器学习框架创建多模式系统，该框架同时使用胸部X射线（CXR）图像和临床数据来预测COVID-19患者的严重程度。此外，该研究还提出了一种基于nom图的评分技术，用于预测高危患者死亡的可能性。这项研究使用了25种生物标志物和CXR图像，以预测意大利第一波Covid-19（3月至6月2020年3月至6月）在930名Covid-19患者中的风险。提出的多模式堆叠技术分别产生了89.03％，90.44％和89.03％的精度，灵敏度和F1分数，以识别低风险或高危患者。与CXR图像或临床数据相比，这种多模式方法可提高准确性6％。最后，使用多元逻辑回归的列线图评分系统 - 用于对第一阶段确定的高风险患者的死亡风险进行分层。使用随机森林特征选择模型将乳酸脱氢酶（LDH），O2百分比，白细胞（WBC）计数，年龄和C反应蛋白（CRP）鉴定为有用的预测指标。开发了五个预测因素参数和基于CXR图像的列函数评分，以量化死亡的概率并将其分为两个风险组：分别存活（<50％）和死亡（> = 50％）。多模式技术能够预测F1评分为92.88％的高危患者的死亡概率。开发和验证队列曲线下的面积分别为0.981和0.939。

translated by 谷歌翻译

Functional Task Tree Generation from a Knowledge Graph to Solve Unseen Problems

Md. Sadman Sakib , David Paulius , Yu Sun

分类：机器人 | 人工智能

2021-12-04

开发智能和自治机器人的主要组成部分是一个合适的知识表示，从中机器人可以获得有关其行为或世界的知识。然而，与人类不同，机器人不能创造性地适应新颖的情景，因为他们的知识和环境严格定义。为了解决叫做任务树的新颖和灵活的任务计划的问题，我们探讨我们如何通过最初在机器人知识库中获得概念的计划。知识图形形式的现有知识用作引用的基本，以创建以新对象或状态组合修改的任务树。为了展示我们方法的灵活性，我们从Recipe1M + DataSet中随机选择了食谱并生成了其任务树。然后用可视化工具彻底检查任务树，该工具描绘了每个成分如何随着每个动作而改变以产生所需的膳食。我们的结果表明，即使对于从未出现之前的成分组合，该方法也可以以高精度生产任务计划。

translated by 谷歌翻译

A Shallow U-Net Architecture for Reliably Predicting Blood Pressure (BP) from Photoplethysmogram (PPG) and Electrocardiogram (ECG) Signals

Sakib Mahmud , Nabil Ibtehaz , Amith Khandakar , Anas Tahir , Tawsifur Rahman , Khandaker Reajul Islam , Md Shafayet Hossain , M. Sohel Rahman , Mohammad Tariqul Islam , Muhammad E. H. Chowdhury

分类：机器学习

2021-11-12

心血管疾病是世界各地最常见的死亡原因。为了检测和治疗心脏相关的疾病，需要连续血压（BP）监测以及许多其他参数。为此目的开发了几种侵入性和非侵入性方法。用于持续监测BP的医院中使用的大多数现有方法是侵入性的。相反，基于袖带的BP监测方法，可以预测收缩压（SBP）和舒张压（DBP），不能用于连续监测。几项研究试图从非侵入性可收集信号（例如光学肌谱（PPG）和心电图（ECG））预测BP，其可用于连续监测。在这项研究中，我们探讨了自动化器在PPG和ECG信号中预测BP的适用性。在12,000岁的MIMIC-II数据集中进行了调查，发现了一个非常浅的一维AutoEncoder可以提取相关功能，以预测与最先进的SBP和DBP在非常大的数据集上的性能。从模拟-II数据集的一部分的独立测试分别为SBP和DBP提供了2.333和0.713的MAE。在40个主题的外部数据集上，模型在MIMIC-II数据集上培训，分别为SBP和DBP提供2.728和1.166的MAE。对于这种情况来说，结果达到了英国高血压协会（BHS）A级并超越了目前文学的研究。

translated by 谷歌翻译

Automatic Signboard Detection and Localization in Densely Populated Developing Cities

Md. Sadrul Islam Toaha , Sakib Bin Asad , Chowdhury Rafeed Rahman , S. M. Shahriar Haque , Mahfuz Ara Proma , Md. Ahsan Habib Shuvo , Tashin Ahmed , Md. Amimul Basher

分类：计算机视觉

2020-03-04

由于缺乏自动注释系统，大多数发展城市的城市机构都是数字未标记的。因此，在此类城市中，位置和轨迹服务（例如Google Maps，Uber等）仍然不足。自然场景图像中的准确招牌检测是从此类城市街道检索无错误的信息的最重要任务。然而，开发准确的招牌本地化系统仍然是尚未解决的挑战，因为它的外观包括文本图像和令人困惑的背景。我们提出了一种新型的对象检测方法，该方法可以自动检测招牌，适合此类城市。我们通过合并两种专业预处理方法和一种运行时效高参数值选择算法来使用更快的基于R-CNN的定位。我们采用了一种增量方法，通过使用我们构造的SVSO（Street View Signboard对象）签名板数据集，通过详细评估和与基线进行比较，以达到最终提出的方法，这些方法包含六个发展中国家的自然场景图像。我们在SVSO数据集和Open Image数据集上展示了我们提出的方法的最新性能。我们提出的方法可以准确地检测招牌（即使图像包含多种形状和颜色的多种嘈杂背景的招牌）在SVSO独立测试集上达到0.90 MAP（平均平均精度）得分。我们的实施可在以下网址获得：https：//github.com/sadrultoaha/signboard-detection

translated by 谷歌翻译

Visual Detection of Diver Attentiveness for Underwater Human-Robot Interaction

Sadman Sakib Enan , Junaed Sattar

分类：机器人 | 计算机视觉

2022-09-28

许多水下任务，例如电缆和折磨检查，搜索和救援，受益于强大的人类机器人互动（HRI）功能。随着基于视觉的水下HRI方法的最新进展，即使在任务期间，自动驾驶水下车辆（AUV）也可以与他们的人类伴侣进行交流。但是，这些相互作用通常需要积极参与，尤其是人类（例如，在互动过程中必须继续看机器人）。因此，AUV必须知道何时开始与人类伴侣互动，即人是否关注AUV。在本文中，我们为AUV提供了一个潜水员的注意估计框架，以自主检测潜水员的注意力，然后（如果需要）在潜水员方面进行导航和重新定位以启动交互。该框架的核心要素是一个深神经网络（称为datt-net），它利用潜水员的10个面部关键点之间的几何关系来确定其头部方向。我们的基础实验评估（使用看不见的数据）表明，所提出的Datt-Net架构可以以有希望的准确性来确定人类潜水员的注意力。我们的现实世界实验还确认了Datt-NET的功效，该实验可以实时推理，并使AUV可以将自己定位为AUV-Diver相互作用。

translated by 谷歌翻译

Robotic Detection of a Human-Comprehensible Gestural Language for Underwater Multi-Human-Robot Collaboration

Sadman Sakib Enan , Michael Fulton , Junaed Sattar

分类：机器人 | 计算机视觉

2022-07-12

在本文中，我们提出了一个基于运动的机器人通信框架，该框架能够在自动水下车辆（AUV）和人类潜水员之间进行非语言交流。我们为AUV到AUV通信设计一种手势语言，可以通过观察对话的潜水员轻松理解与典型的射频，光或基于音频的AUV通信来理解。为了让AUV在视觉上从另一个AUV中理解一个手势，我们提出了一个深层网络（RRCommnet），该网络利用了自我发挥的机制来学会通过提取最大歧视性时空特征来学会识别每个消息。我们将该网络培训在不同的模拟和现实世界中。在模拟和闭水机器人试验中，我们的实验评估表明，所提出的RRCommnet体系结构能够在模拟数据上平均准确性为88-94％，在真实数据上平均准确性为88-94％（真实数据的平均精度为88-94％）取决于所使用的模型的版本）。此外，通过与人类参与者进行消息转录研究，我们还表明，人类可以理解所提出的语言，总体转录精度为88％。最后，我们讨论了嵌入式GPU硬件上rrCommnet的推理运行时，以便在现场的AUV上实时使用。

translated by 谷歌翻译

Integration of Explainable Artificial Intelligence to Identify Significant Landslide Causal Factors for Extreme Gradient Boosting based Landslide Susceptibility Mapping with Improved Feature Selection

Muhammad Sakib Khan Inan , Istiakur Rahman

分类：机器学习

2022-01-10

Landslides在人为全球变暖时代的人类生活和财产的常规发生和令人震惊的威胁。利用数据驱动方法早日预测利用数据驱动方法是时间的要求。在这项研究中，我们探讨了最能描述Landslide易感性与最先进的机器学习方法的雄辩功能。在我们的研究中，我们采用了最先进的机器学习算法，包括XGBoost，LR，KNN，SVM，Adaboost用于滑坡敏感性预测。要查找每个单独分类器的最佳超级参数以优化性能，我们已纳入网格搜索方法，交叉验证10倍。在这种情况下，XGBoost的优化版本优先于所有其他分类器，交叉验证加权F1得分为94.62％。其次是通过合并Treeshap并识别斜坡，高度，TWI等雄辩的特征来探索XGBoost分类器，这些特征在于，XGBoost分类器的性能大多是Landuse，NDVI，SPI等功能，这对模型性能较小。。根据Treeshap的特征说明，我们选择了15个最重要的滑坡因果因素。显然，XGBoost的优化版本随着特征减少40％，在具有十字架的流行评估度量方面表现优于所有其他分类器。 - 在培训和AUC分数的加权F1得分为95.01％，AUC得分为97％。

translated by 谷歌翻译